标签【Hadoop Hive概念学习系列】

Impala和Hive的关系（详解）

Impala和Hive的关系　　Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore ...

　　Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务 ...

说在前面的话　　hive的正则表达式，是非常重要！作为大数据开发人员，用好hive，正则表达式，是必须品！ Hive中的正则表达式还是很强大的。数据工作者平时也 ...

　　　　不多说，直接上干货！可以先，从MySQL里的视图概念理解入手视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口，与基本表不同，它是一个虚表。在 ...

　为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。　分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提 ...

　　　　不多说，直接上干货！ Hive还可以把表或分区，组织成桶。将表或分区组织成桶有以下几个目的：　　第一个目的是为看取样更高效，因为在处理大规模的数据集时，在 ...

Hive文件存储格式包括以下几类： 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE 　　其中TEXTFILE为默认格式，建表时不指定默认为这 ...

　　Hive可以通过实现用户定义函数（User-Defined Functions，UDF）进行扩展（事实上，大多数Hive功能都是通过扩展UDF实现的）。想要开发UDF程序，需要继承org.apac ...

说在前面的话　　以下三种情况，最好是在3台集群里做，比如，master、slave1、slave2的master和slave1都安装了hive，将master作为服务端，将slave ...

　　　　不多说，直接上干货！　　我这里，是借助MySQL，将Hive这个组件的元数据存在MySQL里，命名为hive_metadat ...